智能论文笔记

Unifying Human Motion Synthesis and Style Transfer with Denoising Diffusion Probabilistic Models

Ziyi Chang , Edmund J. C. Findlay , Haozheng Zhang , Hubert P. H. Shum

分类：计算机视觉 | 人工智能

2022-12-16

Generating realistic motions for digital humans is a core but challenging part of computer animations and games, as human motions are both diverse in content and rich in styles. While the latest deep learning approaches have made significant advancements in this domain, they mostly consider motion synthesis and style manipulation as two separate problems. This is mainly due to the challenge of learning both motion contents that account for the inter-class behaviour and styles that account for the intra-class behaviour effectively in a common representation. To tackle this challenge, we propose a denoising diffusion probabilistic model solution for styled motion synthesis. As diffusion models have a high capacity brought by the injection of stochasticity, we can represent both inter-class motion content and intra-class style behaviour in the same latent. This results in an integrated, end-to-end trained pipeline that facilitates the generation of optimal motion and exploration of content-style coupled latent space. To achieve high-quality results, we design a multi-task architecture of diffusion model that strategically generates aspects of human motions for local guidance. We also design adversarial and physical regulations for global guidance. We demonstrate superior performance with quantitative and qualitative results and validate the effectiveness of our multi-task architecture.

translated by 谷歌翻译

CP-AGCN: Pytorch-based Attention Informed Graph Convolutional Network for Identifying Infants at Risk of Cerebral Palsy

Haozheng Zhang , Edmond S. L. Ho , Hubert P. H. Shum

分类：计算机视觉 | 机器学习

2022-09-06

早期预测在临床上被认为是脑瘫（CP）治疗的重要部分之一。我们建议实施一个基于一般运动评估（GMA）的CP预测的低成本和可解释的分类系统。我们设计了一个基于Pytorch的注意力图形卷积网络，以识别从RGB视频中提取的骨骼数据中有CP风险的早期婴儿。我们还设计了一个频率模块，用于在过滤噪声时学习频域中的CP运动。我们的系统仅需要消费级RGB视频进行培训，以通过提供可解释的CP分类结果来支持交互式时间CP预测。

translated by 谷歌翻译

A Two-stream Convolutional Network for Musculoskeletal and Neurological Disorders Prediction

Manli Zhu , Qianhui Men , Edmond S. L. Ho , Howard Leung , Hubert P. H. Shum

分类：计算机视觉

2022-08-18

肌肉骨骼和神经系统疾病是老年人行走问题的最常见原因，它们通常导致生活质量降低。分析步行运动数据手动需要训练有素的专业人员，并且评估可能并不总是客观的。为了促进早期诊断，最近基于深度学习的方法显示了自动分析的有希望的结果，这些方法可以发现传统的机器学习方法中未发现的模式。我们观察到，现有工作主要应用于单个联合特征，例如时间序列的联合职位。由于发现了诸如通常较小规模的医疗数据集的脚之间的距离（即步幅宽度）之类的挑战，因此这些方法通常是优选的。结果，我们提出了一种解决方案，该解决方案明确地将单个关节特征和关节间特征作为输入，从而使系统免于从小数据中发现更复杂的功能。由于两种特征的独特性质，我们引入了一个两流框架，其中一个流从关节位置的时间序列中学习，另一个从相对关节位移的时间序列中学习。我们进一步开发了一个中层融合模块，以将发现的两个流中发现的模式结合起来进行诊断，从而导致数据互补表示，以获得更好的预测性能。我们使用3D骨架运动的基准数据集涉及45例肌肉骨骼和神经系统疾病的患者，并实现95.56％的预测准确性，效果优于最先进的方法，从而验证了我们的系统。

translated by 谷歌翻译

Towards Graph Representation Learning Based Surgical Workflow Anticipation

Xiatian Zhang , Noura Al Moubayed , Hubert P. H. Shum

分类：计算机视觉 | 机器学习

2022-08-07

手术工作流程预期可以预测进行哪些步骤或接下来使用哪些工具，这是计算机辅助干预系统的重要组成部分，例如机器人手术中的工作流程推理。但是，当前的方法仅限于它们在工具之间关系的表达能力不足。因此，我们提出了一个图形表示学习框架，以全面表示手术工作流期望问题中的仪器运动。在我们提出的图表表示中，我们将仪器的边界框信息映射到连续帧中的图节点，并构建框架间/互动图形的图形边缘，以表示随着时间的推移仪器的轨迹和相互作用。这种设计增强了我们网络对手术仪器的空间和时间模式及其相互作用的建模能力。此外，我们设计了一种多型胜利学习策略，以平衡对各种视野无动于衷的预期任务的理解，从而大大改善了各种视野的预期模型性能。 cholec80数据集的实验证明了我们提出的方法的性能可以超过基于较富主链的最新方法，尤其是在仪器预期中（1.27 v.s. 1.48 for Inmae； 1.48 v.s. 2.68 for Emae）。据我们所知，我们是第一个将时空图表引入外科工作流程预期的人。

translated by 谷歌翻译

A Feasibility Study on Image Inpainting for Non-cleft Lip Generation from Patients with Cleft Lip

Shuang Chen , Amir Atapour-Abarghouei , Jane Kerby , Edmond S. L. Ho , David C. G. Sainsbury , Sophie Butterworth , Hubert P. H. Shum

分类：计算机视觉

2022-08-01

唇裂是一种先天性异常，需要专家手术修复。外科医生必须具有丰富的经验和理论知识才能进行手术，并且已经提出了人工智能（AI）方法来指导外科医生改善手术结局。如果可以使用AI来预测修复的唇唇的外观，那么外科医生可以将其用作辅助手术技术来调整其手术技术并改善结果。为了在保护患者隐私时探索这个想法的可行性，我们提出了一种基于深度学习的图像镶嵌方法，该方法能够覆盖唇裂，并产生唇彩，而无需裂缝。我们的实验是在两个现实世界中的裂口数据集上进行的，并由专家cleft唇外科医生评估，以证明该方法的可行性。

translated by 谷歌翻译

Geometric Features Informed Multi-person Human-object Interaction Recognition in Videos

Tanqiu Qiao , Qianhui Men , Frederick W. B. Li , Yoshiki Kubotani , Shigeo Morishima , Hubert P. H. Shum

分类：计算机视觉

2022-07-19

视频中的人类对象相互作用（HOI）识别对于分析人类活动很重要。在现实世界中，大多数关注视觉特征的工作通常都会受到阻塞。当HOI中有多个人和物体涉及时，这种问题将更加复杂。考虑到诸如人类姿势和物体位置之类的几何特征提供有意义的信息来了解HOI，我们认为将视觉和几何特征的好处结合在HOI识别中，并提出了一个新颖的两级几何形状特征信息信息图形卷积（2G） -GCN）。几何级图模拟了人类和对象的几何特征之间的相互依赖性，而融合级别的图将它们与人类和对象的视觉特征融合在一起。为了证明我们方法在挑战性场景中的新颖性和有效性，我们提出了一个新的多人HOI数据集（Mphoi-72）。关于Mphoi-72（多人HOI），CAD-1220（单人HOI）和双人动作（双手HOI）数据集的广泛实验证明了我们的表现与最先进的表现相比。

translated by 谷歌翻译

Pose-based Tremor Classification for Parkinson's Disease Diagnosis from Video

Haozheng Zhang , Edmond S. L. Ho , Xiatian Zhang , Hubert P. H. Shum

分类：计算机视觉 | 机器学习

2022-07-14

帕金森氏病（PD）是一种进行性神经退行性疾病，导致各种运动功能障碍症状，包括震颤，胸肌，僵硬和姿势不稳定。 PD的诊断主要取决于临床经验，而不是确定的医学测试，诊断准确性仅为73-84％，因为它受到不同医学专家的主观意见或经验的挑战。因此，有效且可解释的自动PD诊断系统对于支持更强大的诊断决策的临床医生很有价值。为此，我们建议对帕金森的震颤进行分类，因为它是PD的最主要症状之一，具有强烈的普遍性。与其他计算机辅助时间和资源消耗的帕金森震颤（PT）分类系统不同，我们提出了SPAPNET，该系统仅需要消费者级的非侵入性视频记录人类面向摄像机的动作作为输入，以提供无诊断低成本分类的患者作为PD警告标志。我们首次提议使用带有轻质金字塔通道 - 融合式结构的新型注意模块来提取相关的PT信息并有效地过滤噪声。这种设计有助于提高分类性能和系统的解释性。实验结果表明，我们的系统在将PT与非PT类别分类中的平衡精度达到90.9％和90.6％的F1得分来胜过最先进的。

translated by 谷歌翻译

Interaction-aware Decision-making for Automated Vehicles using Social Value Orientation

Luca Crosato , Hubert P. H. Shum , Edmond S. L. Ho , Chongfeng Wei

分类：机器人

2022-07-12

行人在场的运动控制算法对于开发安全可靠的自动驾驶汽车（AV）至关重要。传统运动控制算法依赖于手动设计的决策政策，这些政策忽略了AV和行人之间的相互作用。另一方面，深度强化学习的最新进展允许在没有手动设计的情况下自动学习政策。为了解决行人在场的决策问题，作者介绍了一个基于社会价值取向和深入强化学习（DRL）的框架，该框架能够以不同的驾驶方式生成决策政策。该政策是在模拟环境中使用最先进的DRL算法培训的。还引入了适合DRL训练的新型计算效率的行人模型。我们执行实验以验证我们的框架，并对使用两种不同的无模型深钢筋学习算法获得的策略进行了比较分析。模拟结果表明，开发的模型如何表现出自然的驾驶行为，例如短暂的驾驶行为，以促进行人的穿越。

translated by 谷歌翻译

A Skeleton-aware Graph Convolutional Network for Human-Object Interaction Detection

Manli Zhu , Edmond S. L. Ho , Hubert P. H. Shum

分类：计算机视觉 | 人工智能

2022-07-11

检测人对象相互作用对于全面了解视觉场景至关重要。特别是，人与物体之间的空间连接是推理相互作用的重要提示。为此，我们提出了一个用于人类对象相互作用检测的骨骼感知图卷积网络，称为SGCN4HOI。我们的网络利用了人类关键点和对象关键点之间的空间连接，以通过图卷积捕获其细粒的结构相互作用。它将此类几何特征与视觉特征和空间配置特征融合在一起，并从人类对象对获得。此外，为了更好地保留对象结构信息并促进人类对象的相互作用检测，我们提出了一种新型的基于骨架的对象关键点表示。 SGCN4HOI的性能在公共基准V-Coco数据集中进行了评估。实验结果表明，所提出的方法的表现优于最先进的姿势模型，并针对其他模型实现竞争性能。

translated by 谷歌翻译

Multiclass-SGCN: Sparse Graph-based Trajectory Prediction with Agent Class Embedding

Ruochen Li , Stamos Katsigiannis , Hubert P. H. Shum

分类：计算机视觉

2022-06-30

在现实世界中，道路使用者的轨迹预测很具有挑战性，因为它们的运动模式是随机且复杂的。以前以行人为导向的作品已经成功地模拟了行人之间的复杂交互作用，但是当涉及其他类型的道路使用者（例如，汽车，骑自行车的人等）时，无法预测轨迹，因为他们忽略了用户类型。尽管最近的一些作品与用户标签信息构建了密集连接的图形，但它们遭受了多余的空间相互作用和时间依赖性。为了解决这些问题，我们提出了多类SGCN，这是一种基于稀疏的图形卷积网络的多级轨迹预测方法，该方法考虑了速度和代理标签信息，并使用新颖的交互掩码来适应基于空间和时间连接的基础。在他们的互动分数上。所提出的方法在斯坦福无人机数据集上大大优于最先进的方法，提供了更现实和合理的轨迹预测。

translated by 谷歌翻译